Amélioration d'un corpus de requêtes à l'aide d'une méthode non-supervisée
نویسندگان
چکیده
RÉSUMÉ. Cet article présente une méthode d’amélioration d’un corpus de requêtes par regroupement des mots qui sont graphiquement similaires. L’approche utilisée est basée sur une distance d’édition normalisée et sur des propriétés statistiques distributionnelles; elle ne s’appuie sur aucune base de connaissances. Cette méthode a été développée pour résoudre un problème industriel: l’amélioration d’un corpus de libellés de produits diversement orthographiés. Le but de l’algorithme est de retrouver l’écriture la plus compréhensible pour l’humain comme pour la machine (par ex. système de requêtes).
منابع مشابه
Améliorer la découverte de chroniques par une découpe intelligente d'un log d'alarmes
Résumé. Cet article décrit une méthode de prétraitement destinée à faciliter la découverte de motifs fréquents dans un log d'alarmes. Au cours d'une première étape les types d'alarmes qui présentent un comportement temporel similaire sont regroupés à l'aide d'une carte auto-organisatrice. Puis on recherche les parties du log qui sont riches en alarmes pour les différents groupes. Des sous logs ...
متن کاملLes défis posés par le Web sémantique
RÉSUMÉ. Le Web sémantique est une vision du Web de demain où l'interopérabilité entre les ressources distribuées sur le Web, aujourd'hui très hétérogènes, sera facilitée par un marquage sémantique de ces ressources à l'aide d'ontologies. Une ontologie est un vocabulaire structuré de noms de concepts et de propriétés définis précisément à l'aide d'un langage formel non ambigu. Dans la vision du ...
متن کاملRecherche de relations spatio-temporelles
Résumé : Les travaux que nous présentons dans cet article sont réalisés dans le cadre du projet GEONTO. Nous proposons une méthode pour l'enrichissement d'une ontologie géographique à partir de l'analyse automatique d'un corpus textuel composé de récits de voyage. Il s'agit d'une méthode basée sur une approche lexico-syntaxique. En analysant le corpus de texte, nous identifions et détectons des...
متن کاملConception assistée d'une ontologie à partir d'une conceptualisation consensuelle exprimée de manière semi-formelle
Résumé : Cet article présente une méthodologie assistée de conception d'une ontologie à travers trois méthodes, soit une méthode d'élicitation des connaissances d'un domaine résultant en un modèle semi-formel de ces connaissances, une méthode de formalisation conduisant à la production d’une ontologie et une méthode de validation syntaxique et sémantique de l'ontologie. Les processus de formali...
متن کاملReservoir Sedimentation under Uncertainty: Analytic Approach versus Simulation
Two methods are presented of estimating accumulated sediment yield stemming from erosion in a semiarid climate during a given time span, and the methods are compared from the viewpoint of the economic consequences evaluated within a Bayesian framework. The design of reservoirs requires the estimation of the random sediment volume Z accumulated over the lifetime of the project. An analytic and a...
متن کامل